在做模型訓練時,要先將訓練資料做一些事前的處理,為以下這幾類:資料平衡、異常點處理、缺失值處理、特徵選擇、特徵提取,做一些介紹與結論。
資料平衡
在人臉辨識訓練的階段,使用者(辨識者)的資料大多都使用一張或是數量不多的影像,未知者可以收集到多人,每個人一張的情況下,數量可能達到幾萬張,但跟使用者的數量差距太大,所以需要使用演算法的方式,在訓練時將學習的比例在學習使用者調高,這樣才不會都只學習到未知者的部分,在辨識時不會連使用者都因未過門檻值而辨識成未知者;若將訓練時將學習的比例在未知者較高,因學習較多未知者的資料,所以不在資料庫中的人,較不容易辨識成資料庫中的人,換句話說就是未知者無法進入系統的機率較高。
異常點處理
在處理資料時,要檢查在資料中是否有少數資料與資料大多的特徵或行為不一致,這些資料叫做異常點,如在人臉辨識使用人臉偵測時,有可能擷取到的影像不是臉,而是其他如帽子、臉的其他部位等,這些資料需要剃除,因為若使用這些資料有可能在訓練時模型無法學習到資訊,過多的化導致無法收斂等。